查看原文
其他

ISACA Journal | 创新治理:创新韧性

K. Brian Kelley ISACA
2024-09-16

往期推荐:




ISACA Journal | 创新治理:隐私创新


创新不仅仅指的是新产品、新竞争方式和开发新功能。创新也在研究当今现状,找出差距所在,并构建解决这些差距的解决方案。谈到韧性,创新可以发挥强大的作用。


以新方式使用现有技术

我们有无数的技术可以让我们在遇到问题和故障时保持IT运营。很多时候,我们可以实施我们已经知道和熟悉的东西,以确保操作不间断或快速恢复(基于业务需求)。例如,即使组织遭受了部分或所有服务的中断,适当并及时的备份也可以帮助组织从勒索软件攻击中恢复过来。虽然备份不是为了对抗勒索软件而设计的,但勒索软件会导致相同的结果:破坏数据和/或系统。因此,使用久经考验的真实备份技术作为我们的防御一层是有意义的。这是使用现有技术的一种新方式。


拥抱新技术

创新的一部分是要超越那些久经考验的事实。所以,除了考虑我们所了解和理解的内容之外,我们总是需要不断拓展至现有技术的改进和增加新的技术类别。


例如,曾几何时,将数据从一个数据中心复制到另一个数据中心是一个困难的命题。但是,改进的存储区域网络(SAN)和网络附加存储(NAS)技术使解决方案更容易得到部署。集群技术已经得到了极大的改进,特别是跨站点的集群技术,新特性和新方法经常利用了存储方面的改进。此外还有云计算本身的影响,它代表了一种新的技术。云计算供应商希望构建能为客户提供恢复和可用性选项的产品,无论它们是完全在云中运行还是采用混合方法。新技术的发展如此之快,我们可能永远不会缺少新的点子。



跳出固有思维去发现问题

我们不仅仅是为了保持忙碌才使用应用程序。我们部署解决方案来解决问题。当我们发现问题时,我们应该有答案。


在事件响应过程中,我们经常执行漏洞扫描来检查问题。漏洞扫描的局限性是,它们检测已知的问题,如默认配置、普遍发生的错误配置、缺少补丁和标准弱点,如跨站点脚本或结构化查询语言(SQL)注入漏洞。为了更深入地挖掘并发现新的漏洞,我们使用了渗透测试等技术。例如,最近一个安全研究人员通过查看返回的JavaScript对象表示法(JSON)响应找到了一个chess.com漏洞。他从数据中获得了安全令牌,并以管理员身份登录。单独的漏洞评估工具本身不可能把这些点连接起来。为了找到漏洞,研究者必须发挥创造性思维来看到潜在的弱点。一旦他这样做了就能够测试这个潜在的漏洞,并证明它的存在。


诚然,渗透测试往往是昂贵的,并且主要关注网络安全。更便宜和不太具体的是桌面演习。通过让合适的人围坐在一张(虚拟的)桌子旁,我们可以遍历系统并查看可能出现的各种问题。通过浏览系统处理这些问题的步骤,我们可以在配置/实现中发现问题。同样在这些演习中,新的问题的出现,可能引发一个以前没有人考虑过的问题。通过这个练习和其他类似的活动,我们可以发现特定系统中附加的韧性问题。


系统中断带来的经验教训

然而,现实情况是,在大型、复杂的系统中,我们仍然可能漏掉一些问题。此外,也有外部事件(如自然灾害)超出我们通常考虑范围的情况。为了避免重蹈覆辙,我们必须从失败中吸取教训。


例如在2021年2月,现代和起亚都报告了与IT相关的长时间断电事件,影响了运营,特别是在美国。考虑到起亚的停电影响了美国经销商,而且很可能影响了销售,我们预计在停电恢复后,这两个组织将进行彻底调查。每当发生这种规模的中断时,我们相信组织都会开展根本原因分析,以防止此类事件再次发生。通常,调查揭示了许多问题,所有这些问题都需要创造性的解决方案,因为这些问题要么比以前想象的更复杂,要么被认为不可能存在。


毕竟,在几乎所有的情况下,经历这种中断的组织都已经为韧性做了大量的规划和设计,但仍然有一些地方出了问题。这就是创新的关键所在。



复杂系统问题和意外的单点故障会带给我们经验教训,调查此类问题的一个经典例子发生在2018年9月微软Azure和Office365大规模中断事件之后。雷击影响了冷却系统,造成冷却系统的损失,从而导致了自动化数据中心电源中断。到此时为止,一切都按计划进行。然而,尽管微软的云架构师的设计符合韧性要求,但由于服务的复杂性,他们漏掉了一些问题。例如,有些服务虽然跨多个地区提供,但有一个或多个组件只存在于数据中心中断的地区。


除了明显的Azure产品之外,其他服务也存在跨区问题,比如Office 365。这里,由于数据中心宕机而重新路由Azure Active Directory (AAD)会导致其他站点的自动节流,从而导致登录时间延长和登录超时。所有这些服务共享相同的登录机制。这揭示了另一个意想不到的问题:Azure AD的韧性保护与韧性相悖。


在微软的案例中,有一项为其云计算运营开发的技术叫做可用区域。可用区域被设计用来防止数据中心出现故障,就像曾经经历过的那样。但是,在发生故障时,可用区域在发生故障的地区还不可用。微软已经具备可以防止中断的现有技术。这只是一个实施问题。


从外部事件/自然灾害中学习我们也必须考虑与中断有关的外部事件和自然灾害。例如,COVID-19大流行是很少有组织能预料到的外部事件。实际上,一夜之间,许多组织不得不在没有适当的设置和计划的情况下转向仅靠远程的工作方式。即使是那些提供虚拟团队和会议服务的提供商——其基础设施设计为可扩展性的服务商——也发现自己被使用量压得喘不过气来,并遭遇了容量问题。好消息是,尽管有一些小问题,但许多组织还是能够快速完成转型。


"

有时候,最初提出的新想法听起来很奇怪,但是结果证明却比我们现有的解决方案更好。

"


然而,疫情期间,各组织的物理基础设施仍然完好无损,无论是位于其自有/租用的数据中心还是在云上。其他灾难就没有这么好了。例如,当卡特里娜飓风袭击美国墨西哥湾沿岸时,该地区的许多组织的数据中心断电,这已经最好的情况了。还有更糟的,有些物理设备和设施遭到破坏。我们也必须有适当的解决方案来处理这些情况。这就是云成为一个有吸引力的解决方案的地方。


图片来源于公共图片库

创新意味着接受不寻常的解决方案

有时特定的问题无法被现有的技术解决。有时技术可以做到,但太贵了。有时解决方案有太多的局限性。一个创新的解决方案可能会克服所有这些障碍。


从技术的角度来看,可能很多人从来没有想过我们应该使用白板、Sharpies和便利贴来管理一个主要的软件开发工作。然而,参加一个Scrum站会,你就会看到这样的结果,尽管由于疫情的影响,现在这些工具往往都是虚拟的。与此同时,伴随着严寒和持续的停电困扰着美国德克萨斯州,一名男子发帖称,他的福特F-150搭载Pro power发电机为他的必需品供电。任何人都不太可能将福特F-150列在处理长时间停电的清单上。然而,这是一个可靠的、易于实现的和相对便宜的解决方案。


同样,当我们面对韧性挑战时,我们的团队可能会想出不同寻常的解决方案。只要它们是合理的,并且恰当地解决了问题,就应该考虑该方案。有时候,最初提出的新想法听上去很奇怪,但是结果证明却比我们现有的解决方案更好。敏捷及其相关方法就是一个很好的例子。自从它们推出以来,就一直在被使用,而其他方法论却没有。这就是我们应该如何运用创新理念来提高韧性的方法。


编者注:本文出自ISACA Journal 2021年第3期。尾注略。根据译者对原文的理解略作增删后翻译。文章内容仅代表作者本人观点。



作者:K. Brian Kelley, CISA, CSPO, MCSE, Security+,是一个专栏作家,主要关注Microsoft SQL Server和Windows安全。他目前担任数据架构师和独立的基础设施/安全架构师,专注于Active Directory, SQL Server和Windows Server。


翻译:尹杭宇,CISM,PMP, ISACA微信公众号特邀通讯员。


校对:李京(Randy Li),CGEIT,ISACA微信公众号特邀通讯员,关注IT治理、信息安全。



继续滑动看下一个
ISACA
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存